[Wiki] [一覧]

Mixture of Experts(MoE / 混合エキスパート)

概要

Mixture of Experts(MoE, 混合エキスパート)は、Transformer の一部を複数の「エキスパート(専門家)」サブネットワークに分け、入力ごとに 一部のエキスパートだけを活性化 させるアーキテクチャです。総パラメータ数を増やしつつ、推論時に使う計算量(活性化パラメータ)を抑えられるため、大規模 大規模言語モデル の効率的なスケーリング手法として注目されています。書籍『つくりながら学ぶ!LLM自作入門』でも、Transformer の派生として MoE が紹介されています。

仕組み

トークン → ルーター → 上位k個のエキスパートのみ実行 → 統合

利点と課題

利点課題
総容量を増やしても推論コストを抑制学習が不安定になりやすい
専門化による性能向上エキスパート間の負荷バランス
メモリには全エキスパートを保持する必要

実モデルの動向(Daily フィード)

「総パラメータは大きく、活性化パラメータは小さく」という MoE の効率性を突き詰めたモデルが相次いでいます。

関連ページ

参考資料